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[摘要 ] 本 文 对 基于 关联 开放 数据 LOD) 进行 的 文本 、 图 像 和 视频 等 Web 资源 注释 服务 的 相关 
技术 方法 进行 了 梳理 和 总 结 , 介绍 了 注释 流程 中 的 关联 数据 查询 技术 、 语 义 消 歧 技 术 、 关 联 
扩展 技术 、 关 联 数据 过 滤 技 术 和 关联 模型 技术 ， 并 提出 注释 服务 应 用 面临 的 问题 。 
[关键 词 ] LOD 注释 服务 ”关联 数据 
[分 类 号 ] G250.7 


Study on Technologies of Annotation Service Based on LOD 


Yu Qianqian*? Li Chunwang: 

' (National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
’ (Graduate University of Chinese Academy of Sciences, Beijing 100049, China) 
[Abstract] The annotation service technologies of Web resources such as text, image, 
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1 背景 


注释 是 附加 到 其 它 信 息 片 段 的 信息 '。 为 Web 资源 内 容 主题 如 人 名 、 机 构 名 
等 实体 对 象 或 某 一 领域 的 主题 概念 做 注释 , 提供 帮助 人 们 理解 web 资源 内 容 的 解 
释 、 补 充 片 段 或 元 数据 信息 等 即 为 注释 服务 。Web 资源 种 类 繁多 ， 包 括 文 本 、 图 
像 和 视频 等 ， 对 Web 资源 进行 注释 ， 一 方面 可 以 帮助 用 户 更 好 地 理解 知识 ， 另 一 
方面 便于 用 户 更 准确 地 搜索 到 自己 所 需要 的 内 容 。 

W3C 启动 的 关联 开放 数据 (LOD) 项 目 近年 来 发 展 极为 迅速 ,截止 2011 年 9 月， 
LOD 已 收录 295 个 数据 集 , 提供 大 约 310 亿 个 RDF 三 元 组 以 及 大 约 5. 04 亿 个 RDF 
链接 。 关 联 数据 的 发 布 与 应 用 为 注释 服务 的 发 展 带 来 了 新 的 契机 ， 目 前 越 来 越 
多 的 组 织 和 机 构 利 用 关联 数据 为 Web 资源 提供 注释 服务 ， 其 基本 原理 是 针对 Web 
资源 中 的 主题 ， 从 LOD 数据 集中 发 现 并 获取 与 该 主题 相关 的 关联 数据 信息 ， 帮 助 
用 户 理 解 Web 资源 内 容 以 及 扩展 相关 知识 。 

注释 服务 是 关联 参考 服务 的 一 种 , 根据 Web 资源 类 型 的 不 同 ,可 以 将 注释 服 
务 分 为 文本 注释 服务 、 图 像 注 释 服 务 和 视频 注释 服务 等 。 其 中 ,文本 注释 服务 的 
相关 研究 如 Garcia E 0 等 利用 关联 数据 资源 对 教学 文档 中 的 名 词 、 术 语 做 注释 ， 
帮助 学 生 在 课程 中 理解 和 扩展 相关 主题 的 知识 ; Rusu D 等 利用 LOD 中 DBpedia, 
OpenCyc 和 WordNet 数据 集 对 web 文本 中 的 主题 进行 注释 ， 帮助 用 户 理解 文本 内 
容 等 。 图像 注 释 服务 相 关 研 究 如 Sonntag D 等 "利用 LOD 中 DrugBank, Diseasome 
和 DBpedia 三 个 数据 集中 的 信息 为 医学 图 像 提 供 注释 功能 , 文 持 医生 利用 扩展 信 
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息 推 新 可 能 的 疾病 并 根据 病症 给 出 相关 的 药物 信息 ，Becker C 等 利用 DBpedia, 
GeoNames 和 Freebase 等 关联 数据 集 对 地 图 信息 做 注释 ， 提 供用 户 当 前 地 理 位 置 
的 背景 信息 及 相关 信息 ， 为 用 户 旅行 提供 导航 等 。 视 频 注 释 服务 的 相关 研究 如 
Haslhofer B 等 利用 关联 数据 为 视频 注释 信息 做 扩展 ， 当 用 户 添 加 注释 信息 后 ， 
系统 自动 显示 注释 信息 的 相关 信息 ， 帮 助 用 户 理解 视频 内 容 ; Ko HG 等 利用 关联 
数据 对 多 媒体 内 容 做 注释 , 针对 用 户 观 看 多 媒体 内 容 时 输入 的 关键 词 ， 系 统 自动 
显示 关联 数据 相关 信息 ， 帮 助 用 户 消除 关键 词 存在 的 歧义 问题 等 。 

根据 资源 链接 方式 的 不 同 ,可 以 将 注释 服务 分 为 URI 链接 服务 、 语 义 扩 展 服 
务 和 元 数据 添加 服务 等 。 其 中 ，URI 链接 服务 如 Mendes PN 等 "构建 的 DBpedia 
Spotlight 系统 利用 DBpedia URIs 自动 注释 用 户 提供 的 文本 片段 主题 ， 通 过 URI 
链接 可 以 发 现 文 本 主题 的 相关 信息 ; Choudhury S 等 "利用 关联 数据 对 YouTube 
视频 标签 (tag) 、 用 户 评论 信息 做 注释 ， 建 立 视 频 标 签 或 评论 信息 到 关联 数据 源 
中 URI 的 链接 ， 通 过 URI 链接 发 现 更 多 的 相关 信息 。 语 义 扩 展 服 务 如 Klebeck A 
等 “构建 的 Ontos Feeder 利用 DBpedia, Freebase 等 关联 数据 集 对 网 络 博客 实体 
对 象 进 行 注 释 ， 高 亮 注释 实体 并 通过 悬浮 窗 显 示 从 关联 数据 集中 获取 的 相关 信 
fA; Halb W 等 "创建 的 在 线 内 容 编辑 工具 Link2Wod 关联 编辑 内 容 中 的 术语 到 关 
联 数据 中 相关 的 多 媒体 信息 等 ， 使 编辑 能 更 好 地 控制 他 们 发 布 的 内 容 等 。 元 数据 
添加 服务 的 相关 研究 如 Simon R 等 “对 关联 数据 为 地 图 提供 的 注释 信息 进行 保存 ， 
在 检索 时 以 元 数据 形式 出 现 ， 提 高 检索 效果 ; Virgilio RD 等 将 识别 出 的 web 
页 面 实 体 对 象 与 关联 数据 相关 信息 进行 链接 ， 以 RDFa 标签 形式 存储 ， 对 web 页 
面 进行 自动 注释 。 

本 文 对 基于 LOD 的 Web 资源 注释 服务 技术 方法 进行 梳理 和 总 结 , 并 对 关联 数 
据 查 询 、 语 义 消 歧 、 关 联 扩展 、 关 联 数据 过 滤 、 关 联 模型 等 注释 服务 技术 进行 分 
析 ， 以 便 为 相关 研究 提供 借鉴 。 
2 关联 数据 查询 技术 

利用 关联 数据 提供 注释 服务 , 首先 需要 将 web 资源 主题 转换 为 关联 数据 的 描 
述 形式 。 关 联 数据 查询 即 是 从 LOD 数据 集中 获取 与 web 资源 主题 相 匹 配 的 关联 数 
据 资 源 的 过 程 。 分 析 己 有 的 注释 服务 可 以 发 现 ， 关 联 数据 查询 技术 主要 包括 
SPARQL 查询 、 语 义 网 搜索 引擎 查询 和 资源 匹配 等 技术 方法 。 
2.1 SPARQL 查询 

SPARQL 是 一 种 基于 图 模式 匹配 的 RDF 数据 查询 语言 ， 使 用 SPARQL 查询 ， 能 
够 快速 获取 指定 数据 源 中 的 相关 数据 。 典 型 的 应 用 项 目 如 Latif A 等 "对 计算 机 
科学 期 刊 的 作者 信息 提供 的 注释 服务 。 

想 要 获得 作者 Arnold Schwarzenegger 的 相关 信息 ， 首 先 需要 找到 与 其 相 匹 
配 的 关联 数据 URI 如 http://dbpedia. org/resource/Arnold Schwarzenegger. 
LatifA 等 “将 DBpedia 中 的 Persondata 数据 集 通 过 RDF Dump 方式 下 载 到 本 地 ， 
获取 作者 信息 ， 使 用 ARC 存储 工具 构建 提供 SPARL 查询 接口 的 本 地 三 元 组 存储 
库 。 对 于 用 户 输入 的 查询 字符 串 ， 使 用 SPARL 查询 在 本 地 三 元 组 存储 库 中 查找 
作者 的 相关 信息 。SPARQL 查询 准确 率 高 ， 但 需要 数据 源 提供 SPARL 查询 端点 。 
此 外 ，SPARQL 查询 还 可 以 用 来 进行 关联 数据 资源 遍历 和 对 遍历 结果 进行 过 滤 。 
2.2 语义 网 搜索 引擎 查询 

语义 网 搜索 引擎 如 Sindice’, Falcons’ 和 Swoogle “等 关联 数据 应 用 都 提供 
API 支持 搜索 关键 词 。 典 型 的 应 用 项 目 如 Ko HG 等 "对 多 媒体 内 容 如 网 络 电视 (IPTV) 


进行 的 注释 服务 。 

Ko HG 等 使 用 Sindice API 查询 用 户 输入 的 关键 词 ， 选 取 返 回 结果 中 的 前 n 
个 RDF 结 点 作为 最 具 代 表 性 的 结 点 。 然 后 通过 SKOS 中 的 关系 属性 skos: broader 
和 skos:narrower 比较 代表 性 结 点 相对 的 概念 层级 , 选取 其 中 的 上 位 类 结 点 作为 
匹配 结果 。 语 义 网 搜索 引擎 可 以 在 整个 LOD 空间 中 对 关联 数据 进行 查询 , 但 是 返 
回 的 数据 质量 参差 不 齐 ， 准确 率 相对 较 低 。 在 数据 源 未 知 的 情况 下 ， 可 以 使 用 这 
种 方法 进行 查询 。 
2.3 资源 匹配 

资源 匹配 通过 关联 数据 URI 解析 或 关联 数据 属性 信息 , 获取 Web 资源 主题 的 
关联 数据 描述 形式 。 如 将 Web 资源 主题 词 项 与 DBpedia 资源 的 URIs 匹配 或 将 词 
项 与 DBpedia 资源 的 Label {A VEAL”. 

首先 ， 将 词 项 转化 为 DBpedia URI 后 绥 形 式 〈 首 字母 大 写 或 复合 词 间 使 用 下 
划 线 )，URI RRA ‘http://dbpedia. org/resource/” 之 后 的 字符 串 ; 其 
次 将 词 项 与 DBpedia 的 rdf:1abel 进行 匹配 , DBpedia 的 labels 是 从 Wikipedia 
页 面 的 题名 创建 而 来 ， 几 乎 所 有 的 DBpedia 资源 都 提供 rdf:label; 然后 使 用 
DBpedia 重 定 向 属性 ( ‘http://dbpedia. org/property/redirect”) 获 取 同 义 词 
或 字母 缩写 资源 ; 最 后 使 用 DBpedia Ñ ke WR TE 
( ‘http://dbpedia. org/property/disambiguates”) 获 取 多 义 词 资源 ， 如 果 以 
上 匹配 均 失 败 ， 则 将 匹配 所 有 以 词 项 作为 子 串 的 资源 。 资 源 匹 配 简单 、 直 接 , 但 
需要 了 解数 据 源 使 用 的 词汇 表 及 其 表达 形式 。 
3 语义 消 歧 技术 

将 web 资源 主题 与 关联 数据 资源 匹配 的 过 程 中 , 由 于 web 资源 主题 本 身 存在 
的 歧义 性 ， 会 导致 一 个 web 资源 主题 与 若干 个 关联 数据 资源 相 匹 配 。 如 
Washington 可 以 指 美 国 第 一 任 总 统 George _ Washington， 也 可 以 指 城市 名 
Washington, D. C. 则 Washington 可 能 与 DBpedia 资源 如 
dbpedia:George Washington, dbpedia: Washington, D.C. 和 
dbpedia:Washington_(U.S._state) 等 相 匹 配 。 语 义 消 时 就 是 从 关联 数据 查询 得 
到 的 关联 数据 资源 中 选择 最 符合 Web 资源 主题 上 下 文 的 关联 数据 信息 的 过 程 。 典 
型 的 应 用 项 目 如 Mendes PN 等 “构建 的 DBpedia Spotlight 系统 使 用 上 下 文 相 似 
度 实现 语义 消 歧 ;RusuD 等 "使 用 基于 LOD 数据 集 内 容 的 上 下 文 相似 度 和 基于 LOD 
数据 集结 构 的 PageRank 算法 实现 语义 消 牙 。 
3.1 上 下 文 相似 度 

DBpedia Spotlight" 是 使 用 DBpedia URIs 自动 注释 文本 文档 的 系统 。 用 户 
提供 文本 片段 (文档 段落、 句子 ),DBpedia Spot light 注释 文本 中 提 及 的 DBpedia 
资源 。 首 先 识别 出 文本 主题 上 下 文 即 文 本 片段 中 该 词汇 周围 的 词 ， 如 来 自 同一 个 
段落 的 词 。 然 后 将 文本 主题 与 DBpedia 资源 相 匹 配 , 找 出 文本 主题 在 DBpedia 中 
的 描述 形式 ， 对 于 产生 的 匹配 候选 项 ,将 其 表示 为 由 来 自 Wikipedia 上 下 文 的 词 
项 组 成 的 向 量 ， 上 下 文 类 型 有 Wikipedia 页 面 、 消 歧 页 面 等 ， 如 Lennon 来 自 
Wikipedia 文本 的 词 项 组 成 向 量 {Beatles, McCartney, rock, guitar,...}。 权 重 
计算 公式 为 TF*ICF，TF 是 指 词 项 在 上 下 文中 出 现 的 次 数 ，ICEF 是 逆 候 选项 频率 

(Inverse Candidate Frequency). WE Rs 是 文本 主题 在 关联 数据 中 的 匹配 候 

选项 ，n (wj) 是 Rs 中 与 词 项 wj 相关 的 候选 项 个 数 ， 则 
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最 后 使 用 余弦 相似 度 计算 文本 主题 上 下 文 与 DBpedia 中 匹配 候选 项 的 
Wikipedia 上 下 文 相似 度 , 选择 相似 度 值 最 大 的 候选 项 作为 语义 消 皮 项。 DBpedia 
Spotlight 在 语义 消 歧 方面 取得 了 较 好 的 应 用 效果 , 但 目前 只 能 识别 DBpedia 数 
据 集 资源 ， 具 有 一 定 的 局 限 性 。 

Rusu D 等 使 用 LOD 数据 集中 资源 的 文本 定义 ， 如 在 DBpedia 中 ， 符 合 人 们 
阅读 习惯 的 资源 描述 定义 为 rdfs:comment， 对 资源 的 描述 类 似 于 摘要 。 如 果 文 
本 主题 上 下 文 与 关联 数据 候选 资源 的 描述 重 县 程度 越 高 , 则 认为 两 个 资源 的 相近 
程度 越 高 .将 文本 主题 上 下 文 和 候选 资源 的 描述 分 别 定 义 为 A 和 B 两 个 词 袋 模型 ， 
使 用 余弦 相似 度 计 算 这 两 个 词 袋 模型 的 重 登 程度 , 最 后 选择 余弦 相似 度 值 最 高 的 
候选 资源 作为 语义 消 歧 项 。 很 多 LOD 数据 集 如 DBpedia、Freebase、0penCyc 和 
WordNet 等 都 具有 资源 的 文本 定义 ， 使 用 这 些 数据 集 进行 注释 服务 时 ， 可 以 参考 
这 种 方法 进行 语义 消 歧 。 

3.2 基于 关联 数据 的 PageRank 算法 

PageRank 是 对 网 页 结构 图 顶点 进行 排序 的 算法 ， 用 来 标识 网 页 的 重要 性 。 
LOD 数据 集 也 存在 图 结构 ， 通 过 资源 之 间 的 关联 关系 如 实例 和 类 之 间 通 过 
rdf:type 连接 、 类 和 其 父 类 之 间 通 过 rdfs: subclass0f 连接 等 构成 图 结构 。 将 
PageRank 算法 应 用 于 LOD 数据 集 ， 首 先 构建 LOD 数据 集 图 6G(V, E), ，V 代表 数据 
集 的 资源 ，E 代表 资源 之 间 的 关系 ， 然 后 识别 文本 片段 中 待 注 释 词汇 集 与 关联 数 
据 匹 配 的 所 有 候选 资源 ， 即 在 数据 集中 ，, 待 注释 词汇 是 其 rdfs:1abel 值 的 资源 。 
如 果 图 顶点 V 不 是 候选 资源 ， 则 将 其 初始 化 为 0， 否则 将 其 初始 化 为 1/R，R 是 
待 注释 词汇 集 与 关联 数据 匹配 的 所 有 候选 资源 数量 .关联 数据 资源 i HJ PageRank 
值 计算 公式 为 ， 
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其 中 NN 代表 图 中 所 有 顶点 数 , 调节 因子 D=0. 85. 7K (RI ERA PageRank 
值 ， 直 到 图 中 同一 结 点 两 次 计算 的 PageRank 值 相差 小 于 10”。 最 后 选择 每 个 待 
注释 词汇 的 关联 数据 候选 资源 中 PageRank 值 最 高 的 资源 作为 其 语义 消 歧 项 。 将 
PageRank 算法 引入 到 关联 数据 中 ， 充 分 利用 了 关联 数据 集 的 结构 信息 。 对 于 资 
源 间 关联 关系 较 丰 富 的 数据 集 可 以 使 用 这 种 方式 进行 语义 消 歧 。 

此 外 ，Ludwig N 等 “结合 标签 上 下 文 和 关联 数据 中 候选 资源 上 下 文 的 共 现 分 
析 以 及 实体 间 关 系 的 链接 图 分 析 对 用 户 添加 的 视频 标签 进行 消 歧 , Garcia-Silva 
A 等 “使 用 DBpedia 基于 上 下 文 相似 度 对 web 资源 如 文本 、 图 像 和 视频 等 用 户 添 
加 的 标签 进行 词义 消 歧 。 
4 关联 扩展 技术 

关联 扩展 是 通过 Web 资源 主题 在 关联 数据 中 的 描述 形式 ， 进 一 步 获 取 与 Web 
资源 主题 相关 的 关联 数据 信息 的 过 程 。 关 联 扩展 是 注释 服务 过 程 中 的 重要 环节 ， 
是 关联 数据 资源 发 现 获 取 的 重要 途径 。 从 已 有 的 注释 服务 可 以 看 出 ,选择 LOD 数 
据 集中 的 相关 属性 获取 关联 数据 资源 是 关联 扩展 的 一 种 方式 , 还 可 以 在 遍历 属性 
的 基础 上 通过 结 点 间 的 相似 性 计算 选取 相关 的 关联 数据 资源 进行 注释 。 


= 


4.1 关联 数据 属性 选择 

关联 数据 依据 RDP 模型 的 “资源 -属性 -属性 值 ” 的 形式 进行 表达 ， 通 过 关联 
数据 中 的 属性 ， 可 以 直接 获取 相关 的 关联 数据 资源 。 但 关联 数据 中 的 属性 繁多 ， 
如 在 DBpedia 本 体 中 ， 描 述 人 物 的 相关 属性 就 有 350 多 个 "， 因 此 ， 需 要 选择 合 
适 的 关联 数据 属性 ， 以 提高 注释 服务 的 精准 性 。 典 型 的 研究 项 目 如 Waitelonis J 
等 “选择 关联 数据 中 的 重要 属性 并 对 其 进行 排序 ， 依 据 这 些 属性 搜索 相关 资源 
对 Yovisto 学 术 视 频 元 数据 进行 注释 ; Stan J 等 ”使 用 关联 数据 中 的 三 种 关联 关 
系 进行 语义 扩展 ， 对 社交 论坛 用 户 发 布 信息 中 的 关键 词 和 实体 对 象 进行 注释 。 

Waitelonis J 等 ” 认为 相关 资源 的 重要 程度 可 以 根据 属性 的 重要 程度 进行 
衡量 ， 提 出 启发 法 对 DBpedia 中 的 重要 属性 进行 排序 。 相 关 属 性 排序 如 下 : (1) 
RDF 属性 频次 。 具 有 rdf:type 或 skos:subject 的 实体 的 属性 频次 越 高 ， 属 性 越 
重要 。 如 果 一 个 实体 属于 几 个 分 类 ， 则 相同 属性 发 生 次 数 加 和 。(2) 具有 相同 
rdf:type 资源 的 属性 。 如 果 两 个 资源 的 rdf: type 资源 是 相同 的 ， 则 连接 这 两 个 
资源 的 属性 是 重要 的 。(3) 预定 义 类 型 的 属性 。 如 dbpedia:Event 和 
dbpedia:Place, H. dbpedia:Event 重要 度 高 于 dbpedia:Place。(4) 双重 链接 
属性 。 资源 间 链接 属性 不 同 ,， 却 是 互相 指向 。(5) dbpedia:disambiguates 属性 。 

(6) dbpedia:wikilink 属性 。 具 有 双向 wikilinks 链接 的 资源 比 只 有 单 向 
wikilinks 链接 的 资源 重要 度 更 高 。(7) Wikilinks 入 链 。(8) List 属性 。 指 那 
些 URI SUA List_of 结尾 的 资源 ,如 dbpedia:List of Nobel laureates。(9) 
skos:subject 属性 。(10) rdf:type 属性 。(11) label 子 串 。 实 体 映射 到 关联 
数据 时 作为 子 串 匹配 的 资源 。 

Stan J 等 “使 用 的 关联 关系 如 下 : 首先 是 层次 链接 (hierarchical links), 
关联 到 上 位 类 概念 ， 以 属性 subject 表示 ; 其 次 是 有 相同 上 位 类 的 邻 结 点 ， 以 属 
性 isbroaderof (sub ject (c)) RAM; 最 后 是 与 起 始 概念 直接 关联 的 概念 , 如 Clint 
Eastwood 是 Gran Torino 的 导演 。 

综 上 ， 基 于 属性 进行 资源 遍历 ， 需 要 对 关联 数据 集 使 用 的 本 体 及 词汇 表 等 比 
较 了 解 ， 选 取 的 属性 不 同 ， 获 取 的 关联 数据 资源 也 不 尽 相 同 。 使 用 关联 数据 属性 
进行 资源 遍历 简单 快捷 ， 获 取 的 资源 准确 率 高 ， 但 需要 对 重要 属性 进行 筛选 。 
4.2 结 点 相似 性 计算 

在 遍历 关联 数据 属性 的 基础 上 ， 通 过 计算 结 点 间 的 相似 性 选择 相关 的 关联 数 
据 资源 。 典 型 的 应 用 项 目 如 Mirizzi R 等 ”开发 的 SWOC, Not Only Tag 和 LEO 
系统 ， 使 用 关联 数据 和 外 部 数据 源 对 IT 领域 的 词汇 概念 做 注释 ， 这 三 个 系统 的 
后 台 都 是 DBpediaRanker 系统 ， 其 主要 功能 是 计算 DBpedia 结 点 间 的 相似 度 ; 
Stankovic M 等 ”使 用 hyProximity 计算 DBpedia 中 概念 间 的 邻近 关系 。 

两 个 研究 项 目 都 是 首先 选择 种 子 概念 作为 概念 扩展 的 起 点 ， 如 
DBpediaRanker 由 领域 专家 挑选 的 数据 库 和 编程 语言 领域 的 代表 性 结 点 为 PHP、 
Java MySQL, Oracle、 Lisp、C# 和 SQLite。 然 后 使 用 skos:sub ject 和 skos:broader 
属性 遍历 数据 集资 源 ，skos:subject 表示 某 个 概念 属于 某 个 类 ，skos:broader 
表示 某 个 类 属于 某 个 上 位 类 。 根 据 研究 领域 的 不 同 ， 遍 历 深 度 也 不 同 ， 如 
DBpediaRanker 中 遍历 深度 设 为 2。 

两 个 项 目的 不 同 之 处 在 于 对 结 点 的 相似 度 计算 方式 不 同 ，DBpediaRanker 系 
统 使 用 任意 两 个 结 点 在 不 同 数据 源 中 的 相似 度 权 重 和 作为 最 终 的 相似 度 计 算 结 
果 ，hyProximity 基于 裔 历 结 点 与 种 子 结 点 的 距离 进行 计算 。 

在 DBpediaRanker 系统 ”中 ， 对 于 搜索 到 的 任意 两 个 DBpedia 资源 结 点 ， 
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使 用 网 络 搜索 引擎 〈 谷 歌 、 雅 虎 和 必 应 )、 社 交 标 签 系统 (Delicious) 和 DBpedia 
数据 源 ， 计 算 其 相似 度 。 选 择 不 同 的 搜索 引擎 ， 可 以 不 局 限于 一 种 搜索 引擎 的 算 
法 ， 使 用 社交 标签 系统 ， 除 了 考虑 词汇 在 网 页 中 的 流行 度 ， 还 考虑 了 词汇 在 用 户 
间 的 流行 度 。 在 搜索 引擎 和 社交 标签 系统 中 ， 对 于 搜索 到 的 两 个 DBpedia 资源 
uri 和 uri， 相 似 度 计 算 公 式 如 下 : 


Puri, „uri, P Puri „uri, 


sim(uri ,uri,,is) = ( 


Puri, Puri, di 

其 中 , is 代表 数据 源 , pa 和 pis 分 别 代表 数据 源 中 包含 uri rdfs: label 
集 词 汇 和 uris 的 rdfs : label 集 词 汇 的 网 页 数 ， Piin uri2 代表 数据 源 中 同时 包含 两 
者 rdfs:label 集 词汇 的 网 页 数 。 

在 DBpedia 中 ,对 于 资源 uril 和 uri,s, 一 方面 考虑 Wikipedia 到 DBpedia 的 
超 文本 链接 wikilink 属性 。 如 果 资 源 uri 2) uri, 有 wikilink 属性 ， 资 源 uri: 
到 uri 也 有 wikilink 属性 ， 则 wikiS (urii，uriy) 值 为 2， 如 果 只 有 资源 uri 到 
uris 的 wikilink 属性 ,或 只 有 uris 到 uri 的 wikilink 属 性, 则 wikiS (uri, uri.) 
值 为 1， 如 果 资 源 uri M uri Z BRA wikilink 属性 ， 则 wikiS(uri,, uri.) {A 
为 0。 另 一 方面 ， 检 查 uri H rdfs: label 是 否 包 含 在 uris 的 dbpprop:abstract 
中 ， 反 之 亦 然 ， 假 设 n 是 资源 label 的 个 数 , m 是 abstract 中 包含 资源 label 
的 个 数 ， 则 abstractS (uri, uri.) =m/n， 其 值 在 [0, 1] 间 浮动 。 

资源 uri, 和 uris 之 间 的 相似 度 是 上 述 计算 的 权重 和 ， 公 式 为 : 


similarity (urii,uriy)= w 


cose sim(uri ,uri,, google) + Wahoo * sim(uri, ,uri,, yahoo) + 
Woping * SIM(UTI, „uri, , bing ) + W geiicious * SiM(Uri, ‚uri, , delicious ) + w „g * WikiS (uri, uri, ) + 


w * abstractS (uri, ,uri, ) 


其 中 权重 w 均 设 为 1。 与 单独 使 用 外 部 资源 、 单 独 使 用 关联 数据 文本 和 链接 
资源 、 同 时 使 用 这 两 种 资源 但 外 部 资源 中 相似 度 计 算 使 用 共 现 分 析 等 算法 相 比 ， 
本 系统 资源 间 相 似 度 计算 方法 更 能 反映 两 个 资源 之 间 的 关系 ， 具 有 明显 的 优势 。 
在 关联 数据 集资 源 描述 较 丰 富 的 情况 下 , 注释 服务 可 以 借鉴 这 种 方法 进行 结 点 相 
似 度 计算 。 

Stankovic M 等 “基于 DBpedia 结构 图 的 两 个 主要 特征 : (1) 与 起 始 概念 距 
离 越 短 的 概念 越 相关 (2) 与 若干 起 始 概念 邻近 的 概念 比 与 一 个 起 始 概念 邻近 的 
概念 要 更 相关 ， 计 算 结 点 间 的 相似 性 。 概 念 c 到 起 始 概念 集 IC 的 hyProximity 
计算 公式 为 : 


—Ad(c,c;) 


Pac) 


hyP(c, IC) = > ; p(c,c,) =e 


cielC d(c,c;) 
其 中 ，d(c, cb) 是 c 与 ci 的 距离 ， 是 c 与 ci 共享 祖先 的 最 短路 径 ，p (c, ci) 对 
不 同 的 距离 赋予 不 同 的 权重 ， 以 指数 形式 在 距离 上 减少 概念 重要 性 ， 入 =0. 3。 使 
用 算法 完成 hyProximity 的 计算 并 进行 排序 , 选择 计算 结果 较 高 的 值 作为 相近 概 
念 ， 算 法 限于 第 3 层 。 该 方法 利用 了 关联 数据 集 的 结构 信息 ， 在 关联 数据 集结 构 
较 丰 富 的 情况 下 ， 注 释 服 务 可 以 借鉴 这 种 方法 进行 结 点 相似 度 计算 。 


5 关联 数据 过 滤 技 术 
JA LOD 数据 集中 获取 的 数据 资源 通常 是 比较 多 的 ,为 了 保证 获取 资源 的 质量 ， 


需要 对 不 相关 的 资源 进行 过 滤 。 数 据 过 滤 可 以 在 资源 发 现 过 程 中 执行 ， 典 型 研究 
项 目 如 Lama M 等 ””、Ko HG 等 "、Stan J 等 ”和 DBpediaRanker 系统 ”对 新 遍 
历 结 点 的 处 理 过 程 ; 也 可 以 在 资源 发 现 获取 后 执行 ， 如 Stankovic M 等 “、 
DBpediaSpotlight 系统 "和 DBpedia Mobile MH "等 对 已 获取 资源 的 处 理 方法 。 
5.1 资源 发 现 过 程 中 的 数据 过 滤 

Lama M 等 ““ 利 用 关联 数据 为 教育 资源 添加 注释 。 首 先 识别 出 教育 资源 的 主 
题词 , 然后 搜索 DBpedia 找到 相关 主题 的 资源 , 使 用 深度 优先 算法 对 DBpedia 资 
源 进 行人 遍历 。 对 遍历 的 DBpedia 属性 赋予 一 定 的 权重 值 ， 如 属性 skos:broader 
的 权重 值 wrss 设 为 0.6、 属 性 rdf:type 的 权重 值 wrw 设 为 0.9 等 ,可 以 人 工 赋予 ， 
也 可 以 自动 获得 。 如 果 遍 历 资 源 为 叶子 结 点 ， 即 三 元 组 宾语 为 文字 ， 则 通过 如 下 
公式 计算 叶子 结 点 与 主题 词 的 关系 ， 


z S 
M(x) =ax> (wt, RORE E 
i=l 
其 中 ，K 是 相关 的 教育 资源 主题 词 数 目 ，i 是 第 i 个 相关 的 主题 词 ， wt; 是 
第 i 个 主题 词 的 权重 ，ft; 是 第 i 个 主题 词 在 结 点 x 中 的 频次 ，S, 是 教育 资源 与 
结 点 x 共有 的 主题 词 数 。 如 果 裔 历 资 源 为 分 支 结 点 ， 即 三 元 组 宾语 为 URI， 则 通 
过 如 下 公式 计算 分 支 结 点 与 主题 词 的 关系 ， 


ua) = wr, x pi) 


其 中 ，N, 是 结 点 x 的 属性 数目 ，i 是 第 i 个 属性 ，wr; 是 属性 的 权重 ，t; 是 第 
i 个 属性 关联 的 结 点 。 

Ko HG 等 “使 用 语义 网 搜索 引擎 的 查询 响应 次 数 计 算 结 点 间 的 相似 度 , 通过 相 
似 度 的 计算 过 滤 掉 不 相关 的 结 点 。Stan J 等 ”计算 扩展 集中 的 每 个 概念 与 关联 数 
据 中 的 起 始 概念 摘要 的 相似 度 ,， 摘要 中 含有 很 多 与 起 始 概念 相关 的 关键 词 ， 这些 
关键 词 可 作为 起 始 概念 的 上 下 文 过 滤 掉 扩展 集中 不 相关 的 概念 。 在 
DBpediaRanker 系统 中， 将 新 遍历 的 结 点 与 该 领域 流行 度 最 高 的 DBpedia 分 类 
进行 相似 度 计算 , 计算 方法 为 关联 扩展 技术 中 介绍 的 不 同 数据 源 中 结 点 的 相似 度 
计算 权重 和 ， 如 果 相 似 度 值 高 于 给 定 阔 值 ， 则 认为 新 遍历 结 点 属于 给 定 领域 上 下 
文 ， 如 果 相 似 度 值 低 于 给 定 闵 值 ， 则 将 其 过 滤 掉 。 由 此 可 以 看 出 ， 资 源 发 现 过 程 
中 的 数据 过 滤 方 法 主要 是 结 点 间 的 相似 度 计 算 , 与 关联 扩展 中 的 结 点 相似 度 计 算 
方法 通用 ， 但 应 用 场景 不 同 ， 主 要 取决 于 不 同 应 用 对 相似 度 计算 阔 值 的 选择 。 
5.2 资源 获取 后 的 数据 过 滤 

Stankovic M 等 “对 主题 概念 进行 注释 ， 基 于 DBpedia 中 的 概念 类 型 ， 过 滤 
掉 人 、 公 司 和 书籍 等 不 相关 的 概念 。DBpediaSpotlight 系统 "基于 DBpedia, 
Freebase 和 Schema. org 的 本 体 分 类 层级 概念 类 型 或 通过 SPARQL 语句 对 获取 的 
关联 数据 资源 进行 过 滤 。DBpedia Mobile 应 用 "构建 基于 资源 类 型 、 评 价 等 的 简 
单 过 滤 或 构建 SPARQL 语句 过 滤 掉 不 相关 的 资源 。 资 源 获取 后 的 数据 过 滤 主 要 使 
用 关联 数据 集资 源 类 型 和 SPARL 语句 进行 过 滤 ， 对 于 需要 注释 特定 类 型 主题 的 
资源 ， 可 以 使 用 这 种 方法 对 获取 到 的 关联 数据 进行 过 滤 。 
6 结语 


通过 分 析 基 于 关联 数据 进行 注释 服务 的 已 有 研究 可 以 发 现 , 其 对 Web 资源 的 注释 


主要 是 对 实体 对 象 或 主题 概念 的 注释 ， 如 Yovisto 项 目 * 注 释 的 视频 元 数据 包括 
与 视频 相关 的 关键 词 (从 题名 、 演 讲 者 和 描述 信息 等 抽取 ) 以 及 与 视频 时 间 相 关 
的 关键 词 ( 如 使 用 OCR 方法 从 视频 中 抽取 ) 和 用 户 对 视频 所 做 的 标签 ， 极 少 涉及 
对 某 个 段落 主题 或 整 篇 文章 主题 的 注释 服务 。 通 过 关联 数据 查询 技术 、 语 义 消 歧 
技术 、 关 联 扩展 技术 和 关联 数据 过 滤 技 术 ， 可 以 获取 与 注释 对 象 相关 的 关联 数据 
资源 。 此外， 关联 模型 可 以 对 数字 文献 中 实体 对 象 的 相关 属性 及 关联 关系 进行 描 
述 ， 以 指导 关联 信息 发 现 、 融 合 与 可 视 化 呈现 等 操作 “。 如 Latif A 等 "设计 了 
CAF-SIAL 概念 集成 框架 ， 支 持 不 同人 物 类 型 如 科学 家 、 艺 术 家 等 相关 信息 的 集 
REDOC: IRRE SEF AHA CH DBpedia 本 体 ) 描述 方案 设计 了 数字 文 
献 中 科研 人 员 、 科 研 机 构 、 研 究 项 目 等 典型 实体 对 象 的 关联 模型 。 首 先 根据 关联 
数据 源 中 已 有 的 本 体 描述 结合 用 户 潜在 的 信息 需求 对 实体 对 象 的 相关 属性 以 及 
与 其 它 实体 的 关联 关系 属性 进行 遂 选 ,构建 关联 模型 ; 然后 依据 预先 定义 的 实体 
间 关 联 关系 对 注释 服务 的 检索 结果 进行 查询 扩展 , 从 而 能 获取 更 多 的 关联 数据 资 
源 。 使 用 关联 模型 技术 ， 可 以 扩展 与 优化 关联 数据 的 检索 结果 ， 但 是 目前 关联 模 
型 主要 是 针对 数字 文献 中 的 实体 对 象 ， 具有 一 定 的 局 限 性 。 笔 者 将 继续 对 注释 服 
务 相 关 环 节 的 技术 方法 进行 研究 ， 同 时 关注 段落 主题 或 整 篇 文章 主题 的 注释 服 
务 ， 以 期 在 已 有 方法 的 基础 上 尝试 构建 基于 LOD 的 文献 主题 注释 服务 应 用 ,在 实 
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